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Централізований підхід до опису 
УУеб-онтологій 


Досліджено існуючі підходи до створення та відображення онтологій. Запропоновано автоматичне 
створення єдиної бази онтологій на основі використання методів лінгвістичного розпізнавання образів. 


Вступ 


Останнім часом онтології набувають все більшого значення для найрізномані- 
тніших типів інформаційних систем (ІС). Так, вони можуть використовуватися: 

- в системах електронної комерції і віртуальних організацій для інформаційного об- 
міну між учасниками (у тому числі при використанні програмних агентів); 

- в інтелектуальних пошукових системах для тематичної рубрикації документів; 

- в системах автоматизованого отримання знань від експертів; 

- в системах автоматизації проектування та ін. 

Як приклад можна навести роботи |1-3|. Про зростаючу роль онтологій для інфор- 
маційних систем свідчить також введення в роботі |4| поняття керованих онтологіями 
інформаційних систем (Опіоіобу-Пгіуеп Паїогпабйоп Зузіет5 - ОРІЗ). З точки зору 
«часового виміру» онтології можуть використовуватися в ОРІ5 під час їх розробки, 
використання, інтеграції і т.п. А з точки зору «структурного виміру» онтології можуть 
підтримувати різні частини інформаційної системи - інтерфейси користувача, бази даних 
чи інші компоненти. 

Однак, не дивлячись на зростаючий «попит» на онтології, не існує ні єдиного 
загальноприйнятого визначення, що таке «онтології», ні єдиної думки про те, що вони 
мають включати в себе, ні єдиної методології побудови онтологій. Розробка онтологій 
на сьогодні носить скоріше дослідницький характер, що, звичайно ж, стримує їх ви- 
користання. 


Аналіз останніх досліджень 


Детальні переліки та аналіз існуючих визначень поняття «онтологія» здійснено 
в роботах (5-6). Ми не ставимо за мету дати ще одне визначення онтології, а лише 
вкажемо на ключові особливості, з якими погоджується більшість авторів: онтологія 
описує поняття предметної області та відношення між цими поняттями, відношення 
можуть бути різних типів. 

Щодо методів побудови онтологій, то на сьогодні існує ряд мов, призначених 
для формального опису онтологій. Серед найбільш відомих і використовуваних: КІЕ 
(Кпомедєе Піегсрапее Когтаї) |7|, РАМІЛОЇ, (ДАВРА Аєепі Магкир І апецаєе) |ЯЇ, 
ОМУТ, (Опідіоєу У/еб І апецаєе) |9|. Існують також інструментальні засоби, що під- 
тримують розробку онтологій відповідно до цих специфікацій. 
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Аналізуючи конструкції даних мов формального опису, можна помітити, що 
навіть в найбільш розширеній з них ОМУЇ, |9|, що включає ОП.РДАМІ,, існують детальні 
можливості лише для задання класів, підкласів та їх членів (таксономії), для інших же 
типів відношень не передбачаються спеціальні елементи - їх можна задавати лише через 
властивості класів. На практиці більшість із вже створених онтологій є максимум ієра- 
рхічною структурою понять предметної області. Тобто розробниками розглядаються 
лише такі відношення між поняттями, як «вид-клас» та рідше «об'єкт-атрибут». 

Тоді, як в ряді робіт, серед яких можна назвати (10), розроблено класифікацію вла- 
стивостей онтологій та уточнено перелік структурних властивостей (таксономічні зв'язки, 
композиційні зв'язки, топологічні зв'язки, зв'язки сутностей з процесами, причинно-на- 
слідкові зв'язки, часові та просторові зв'язки). 

Відповідно до концепції Зеплапіїс М/еб |11| створення АВРЕ-описів та ОМУ/1,- 
онтологій покладене на окремих розробників. І на сьогодні, попри досить незначні напра- 
цювання в плані розробки онтологій, вже виникає проблема узгодженості онтологій, яка 
полягає в тому, що різними розробниками для однієї й тієї ж предметної області можуть 
бути створені онтології, синтаксично або семантично гетерогенні, і для їх сумісного 
використання необхідна трансляція або відображення (виявлення відповідності між 
поняттями двох онтологій) (121. 

Існує декілька підходів до вирішення проблеми відображення онтологій, пер- 
ший з яких - ручне відображення, шляхом встановлення відношень між концептами, 
здійснювалося для деяких великих онтологій. Як приклад такого підходу можна на- 
вести роботу (13). Проблема застосування ручного відображення в тому, що розмір 
онтологій може бути дуже великим і продовжуватиме нарощуватися, що вимагатиме 
надзвичайно багато людських зусиль для їх відображення. Тому, природньо, що 
дослідники шукають шляхи відображати онтології автоматично. 

Досить значна кількість досліджень, серед яких 1 | 14|, присвячені розробці за- 
собів відображення онтологій на основі методів машинного навчання, серед яких 
особливою популярністю користуються методи класифікації текстів. Однак резуль- 
тати тут залежать від якості навчальних даних, а підготовка їх вручну для сотень 
понять досить трудоємка і дорога (хоч і не настільки, як ручне відображення), що 
зменшує привабливість текстової класифікації. 

В деяких останніх дослідженнях, серед яких можна виділити (15, пропонується ви- 
користовувати дані Веб (результати пошукових серверів) для виявлення текстових екзем- 
плярів та оцінки умовної ймовірності. Однак результати цих робіт поки що незадовільні. 

Ще одним підходом до відображення онтологій є, запропоноване в (16, зіста- 
влення їмен понять на основі їх лексичної подібності та використання спеціально роз- 
роблених словників (У/огаїМеї), в яких описані відношення між концептами (синонімія) 
та властивості ряду концептів. 

Аналіз ряду засобів відображення онтологій зроблено в роботі | 171. 

Альтернативним напрямком досліджень є автоматичне створення онтологій, 
яке на сьогодні зводиться до автоматичного анотування текстів у У/еб. Аналіз робіт в 
цьому напрямку подано в |18|, де показано їх обмеження виділенням певного типу 
відношень для анотування, або ж використанням для анотування певної онтології. 
В свою чергу, автори роботи (18) пропонують використовувати для аналізу веб-сторінок 
середовище Опіоіоєіса! 5Зепапіїся (Опіобега) -- Бійр://лумум.опіоЇодісаЇзетапіїся.сопу, що 
створювалось для задач автоматичного перекладу та семантичного аналізу текстів. 
Результати аналізу пропонується автоматично відображати у ОМУ/Ї, - описи за 
допомогою Опіоб5етдОУМУІТ.. 
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Таким чином, можна виділити два основних напрямки досліджень, пов'язані з 
онтологіями: 

- дослідження онтологічних властивостей для наступного формального представлення 
онтологій; 
-. дослідження можливостей відображення онтологій. 

Другий напрямок, на нашу думку, є вторинним і випливає з «розподіленого» 
підходу до створення онтологій, який виправданий складністю їх створення. 

Мета статті. Нами ставилась задача розглянути можливості «централізованого» 
автоматичного створення онтологій на основі виявлення в текстах, за допомогою 
методів лінгвістичного розпізнавання образів, основних онтологічних властивостей 
предметної області. 


Результати досліджень 


Для реалізації експериментів було розроблено морфологічний словник та спеціа- 
лізоване програмне забезпечення, за допомогою якого здійснюється морфологічний, 
лексичний та синтаксичний аналіз текстів з У/еб (на російській мові). 

Для лексичного аналізу використовуються продукційні правила знаходження 
дієслівних, іменних, прислівникових груп. На виході отримуємо потік лексем з морфо- 
логічними ознаками (частина мови, рід, число, відмінок). 

Для виявлення онтологічних властивостей була розроблена база правил, на ос- 
нові яких можливе виділення з текстів різних типів онтологічних відношень. 

Наприклад, як ознаки класифікації можна виділити наявність в межах речення: 
- підмета-іменника (об'єкт класифікації); 

- «ключових слів» («подразделить», «различать», «классифицировать», «клас- 
сификация», «классьт» 1 т.п); 

- іменної групи одного із зразків («по» -- іменник (в давальному відмінку) 
іменник (типу процеси, в родовому відмінку); «по» - прикметник (в давальному 
відмінку) - іменник (в давальному відмінку) і т.п.) - є необов'язковою класифі- 
каційною ознакою; 

- переліку іменників і/або іменних груп, через кому або кому з крапкою в одному 
роді і числі, які є класифікаційними групами і наявні в межах речення або в наступних 
абзацах та їн. 

В результаті аналізу текстів виявляються онтологічні моделі, на основі яких 
формується єдина база онтологій різноманітних предметних областей та індекси для 
проаналізованих веб-сторінок. 

Такий централізований підхід до створення онтологій має наступні переваги 
порівняно з підходом (11): 

- обробка даних в базі даних здійснюється швидше, ніж окремих текстових 
файлів (ОМ); 

- усувається необхідність узгодження розрізнених онтологій; 

-- забезпечується можливість аналітичної обробки всіх проіндексованих сторінок та ін. 

Серед проблем створення подібної єдиної бази онтологій: 

- необхідність використання певного формалізму для опису онтологій; 
-- повнота задання правил виявлення онтологічних моделей; 
-- використання значних машинних ресурсів та ін. 

Як формальна модель опису онтологій нами пропонується використання 

«багатовимірної» семантичної моделі: 


КЕН ДІ ДН А 


де /, - вимір моделі. 


82 «Искусственньй интеллект» 472008 


Централізований підхід до опису Й/еб-онтологій 


2К 


Кожний вимір є множиною відношень певного типу для різних об'єктів, має 
у , 


свою структуру 1 характеристики. 


Вимір таксономії для і-го об'єкта за К-ю класифікаційною ознакою може бути 


описаний за формулою: 


Кк -(0,,45 25), 


(1) 


де О, - об'єкт класифікації, А - класифікаційна ознака, 7 й І - множина |-х значень 


для і-го об'єкта за К-ю ознакою. Вимір композиції для і-го об'єкта: 


Б - (014,5), 


де 14.) - множина атрибутів і-го об'єкта. 


Вимір топології можна описати аналогічно до виміру композиції. 
Зв'язки об'єктів з процесами, або процесну модель можна задати: 


Е, «(0,4,3М,,В,И, 


у 


де М,- назва функції, К, - тип функціонального зв'язку (по входу чи по виходу, м.б. 


інший - контроль, механізм), 14,; - множина атрибутів об'єкта, задіяна в функції, 


С ; - ВИКОНавець процесу. 


Для кожної функції можуть бути також задані процедури перетворення даних: 


Е; -(м, 47 "Но,), 


де (4,)- множина вхідних атрибутів для функції |, (4;) - множина вихідних 


атрибутів функції |, Фр.) - множина функцій перетворення вхідних атрибутів у 


вихідні. 


Причинно-наслідкові 1 часові зв'язки між процесами представимо як сценарії: 


С, «(МАМУМ УЮ Ми; 


/ 


де М, - функція сценарію, і Му У - альтернативні функції, Ї Мі У - паралельні 


функції, У, - умова виконання, М, , - попередня функція. 


Дана модель названа нами багатовимірною семантичною, оскільки кожна 
онтологічна модель може бути розглянута як окремий вимір єдиної моделі та задана 


як бінарні відношення певного типу. 


В процесі розв'язання задачі автоматичної побудови онтологій ми також 
стикнулися з проблемою узгодження онтологій ще на етапі їх створення, оскільки 
одні 1 ті ж онтологічні відношення можуть бути описані у різних текстах по-різному. 


Наприклад, для О, об'єкта класифікації виділено деяку таксономію у . При 


знаходженні в тексті нової таксономії для 0-го об'єкта потрібно встановити 


відповідність двох таксономій. Для цього має бути здійснена перевірка на преямеє 
збігу елементів таксономій - класифікаційних ознак та окремих таксонів (для 1 ІНШИХ 


онтологічних моделей це будуть інші елементи). 


У нашому випадку для такої перевірки використовуються лексичний аналіз (із 
використанням морфологічного словника) та вже описані в базі даних відношення (у 


т.ч. тотожності, що включає і синонімію) для зняття семантичної гетерогенності. 
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Якщо перетин множин елементів певного виду для однотипних онтологічних 
моделей складає 50 У, і більше від загального числа елементів хоча б однієї 
з множин - такі моделі вважаються подібними. В протилежному випадку моделі 
вважаються різними. 

Під цінністю елемента онтології розуміється ймовірність його використання у 
подібних моделях Р,, яка визначається як відношення кількості використань елемен- 


та у подібних моделях до загального числа подібних моделей. 

Тобто ми інтерпретуємо цінність інформації як її використовуваність або ж уні- 
кальність. Проте для унікальної інформації на основі такого підходу не врахо- 
вується її істинність. 

Цінність окремої моделі визначається як нормована сума цінностей її елементів: 


даре 


т | еез(1,Е" У 
о Е" 


2 


де Е" -- кількість елементів т-ї моделі. 


Актуальною вважається більш цінна онтологія. До складу актуальної онтології 
додатково включаються елементи, що мають цінність більшу 0,5. 

Також можливе врахування «коефіцієнта довіри» до тексту, з якого виявля- 
ється модель, що може бути визначений в результаті віднесення тексту до певної 
категорії (наукова стаття, студентський реферат, популярна стаття і т.п.). 

Принципово, наш метод узгодження онтологій подібний до описаного в |161, 
однак основною Його відмінністю є поступовість «уточнення» онтологічних моде- 
лей, тоді як в | 16)| це статичний обмежений словник взаємозв'язків. 


Висновки 


В даній роботі пропонується автоматичне створення онтологій за допомогою 
спеціалізованого програмного забезпечення, здатного виявляти в тексті структурні 
властивості онтологій на основі лінгвістичного розпізнавання образів. Для фор- 
малізованого опису онтологій запропоновано використання багатовимірної семан- 
тичної моделі. 

Подальші дослідження в даному напрямку пов'язані 1: 

- уточненням правил виділення онтологічних моделей з текстів предметних областей; 
- удосконаленням багатовимірної семантичної моделі на основі виявлення онто- 
логічних «образів» в текстах, 

- розробкою інтерфейсу для надання можливості використання онтологій широкому 
колу користувачів та ін. 

Звичайно, на основі запропонованого нами підходу можливе також формування 
ОМ дописів за допомогою відповідної сервісної програми. Однак, на наш погляд, більш 
доцільним є створення індексів для екземплярів відношень у процесі виявлення 
онтологічних моделей з текстів. У цьому випадку можливе також практичне застосування 
запропонованого підходу для розробки пошуково-аналітичних сервісів. 
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И.А. Козак 


Централизованньтгй подход к описанию УУеб-онтологий 
Исследовань существующиєе подходьт к созданию и отображению онтологий. Предложено автоматическоє 
создание единой базьт онтологий на основе использования методов лингвистического распознавания образов. 


1.А. Косак 

5іе Арргоасі ко Резсгірбїоп У/еб-Опіоіосу 

Тре ехізіпе арргоасре5 Гог опіоїору сгеайоп апа ітаєе аге ехріогед. Ашіоптайс глакіпє Ше ипіїсд 
опіоїору Ба5е мліб ц5е Фе піеїбодз ої ппеція8йса! агіїйсіа! регсеріїоп 15 обегей. 


Стаття надійшла до редакції 21.07.2008. 


«Штучний інтелект» 42008 85 


